Este projeto consiste em realizar uma EDA (Análise Exloratória dos Dados) a partir dos dados fornecidos pela Prosper. Esse conjunto de dados faz parte das recomendações da Udacity para este projeto.
A Prosper é uma empresa fundada em 2005 com o objetivo de facilitar empréstimos para o mercado dos Estados Unidos. Essa iniciativa já atingiu mais de 15 bilhões de dólares em empréstimos para mais de 920000 pessoas. Prosper
O conjunto de dados analisado neste projeto é fornecido por esta empresa e mais sobre o seu conteúdo será abordado futuramente.
Para esta análise serão necessárias as seguintes bibliotecas:
ggplot2
dplyr
gridExtra
grid
knitr
Primeiro é necessário carregar os dados a partir do csv. Neste projeto chamaremos estes dados de “ld” em referência a loan dataset para facilitar. Em seguida será exibida a estrutura desse conjunto de dados obtendo a quantidade de variáveis e de observações.
Como este conjunto de dados contém 81 variáveis, torna-se evidente que existem muitos dados. Então é importante decidir primeiro quais variáveis serão escolhidas para análise e em seguida realizar a limpeza dos dados.
Como eu não possuo conhecimento extenso sobre a área serão escolhidas variáveis que ao meu ver podem ser bastante úteis para a análise. Pode ser que variáveis importantes sejam deixadas de lado, mas a ideia aqui será descobrir a relação dessas variáveis em relação aos empréstimos. Dessa forma será possível retornar e alterar a escolha dessas variáveis caso se mostre necessário.
Será necessário consultar a definição das variáveis para que seja possível fazer a seleção.
Das 81 variáveis foram selecionadas 16 que serão trabalhadas na análise.
Ao observar a amostra dos dados podemos indicar que há quase 114000 observações, só que muitas delas parecem conter dados incompletos. Por este motivo iremos excluir entradas que possam estar faltando dados e possam compremeter a análise.
Essa limpeza foi capaz de reduzir o conjunto de dados para quase metade das observações, atingindo a marca de 77557 observações.
Pode se observar que a quantidade de empréstimos foi aumentando ao longo do tempo, mas algo impactou esse crescimento no final de 2012 e começo de 2013.
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 12.00 36.00 36.00 42.72 60.00 60.00
Pela análise estatística e do gráfico pode-se observar que a maior parte dos empréstimos possuem duração de 36 meses, seguido por 60 meses e uma pequena parcela de 12 meses. Os empréstimos de 36 meses representam 68.3% de todos os empréstimos.
## Cancelled Chargedoff Completed
## 0 4445 17703
## Current Defaulted FinalPaymentInProgress
## 52478 885 189
## Past Due (>120 days) Past Due (1-15 days) Past Due (16-30 days)
## 14 722 242
## Past Due (31-60 days) Past Due (61-90 days) Past Due (91-120 days)
## 327 275 277
Pode-se observar que a maior parte dos empréstimos se enquadram em “Current” e “Completed”. Dessa forma, os dados dos outros status ficam reduzidos e difíceis de serem observados. Portanto, a seguir esses dois status serão excluídos para que melhore a observação da proporção dos outros status.
Filtrando as variáveis “Current” e “Completed” pode-se observar que o Status “Chargedoff” também possui uma grande quantidade de empréstimos.
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.0400 0.1349 0.1845 0.1934 0.2524 0.3600
Pode-se observar existem alguns valores mais presentes que se destacam. Porém a distribuição mais popular se encontra entre 10 e 20%.
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## -0.18160 0.07408 0.09060 0.09529 0.11500 0.26670
Esse gráfico consegue reprentar com certa fidelidade uma relação de distribuição normal com relação aos dados de retorno estimado para cada empréstimo realizado. Com a maior concentração de seus valores em cerca de 9%. Curioso destacar que há retornos estimados com valores negativos.
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1.000 4.000 6.000 6.062 8.000 11.000
Essa relação também parece representar uma distribuição normal. Como se trata de uma avaliação própria da empresa será mais interessante a exploração futura com relação a outras variáveis para determinar seu impacto.
Esta categoria é tratada de forma diferente, porém vale lembrar que apesar de estarmos lidando com uma lista enumerada segue a seguir cada um de suas respectivas categorias:
0 - Not Available
1 - Debt Consolidation
2 - Home Improvement
3 - Business
4 - Personal Loan
5 - Student Use
6 - Auto
7 - Other
8 - Baby and Adoption
9 - Boat
10 - Cosmetic Procedure
11 - Engagement Ring
12 - Green Loans
13 - Household Expenses
14 - Large Purchases
15 - Medical/Dental
16 - Motorcycle
17 - RV
18 - Taxes
19 - Vacation
20 - Wedding Loans
Consolidação de Crédito é o principal motivo para que as pessoas busquem empréstimos na Prosper. Dessa forma a relação das outras categorias fica nebulosa. Por isso será criado um novo gráfico ignorando a Consolidação de Crédito para que seja possível comparar a relação com as outras categorias.
Agora já é possível observar que o segundo motivo para o empréstimo na Prosper é encaixado na categoria “Outros” o que é razoável já que essa é uma categoria genérica que engloba diversas outras categorias não catalogadas. Em seguida é “Melhoria Domiciliar”, “Negócios” e “Automóveis”.
Dentre os resultados obtidos será feita uma filtragem com as profissões com “Others” , “Professional” e "" por serem ambíguas.
Em ordem decrescente, a maior quantidade de profissionais que pegam empréstimos da Prosper são Executivos, Programadores e Professores, respectivamente.
## Employed Full-time Not available Not employed
## 0 65884 7585 0 1
## Other Part-time Retired Self-employed
## 3526 199 320 42
Pode-se verificar que a maior parte dos empréstimos foram feitos com pessoas que estavam atualmente empregadas no memomento do empréstimo.
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 600 660 700 699 720 880
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 619 679 719 718 739 899
Observando os gráficos pode-se observar que a distribuição é muito semelhante porém com um breve deslocamento a direita em relação a Variação mais alta. O que faz sentido por que os dois gráficos tratam de uma mesma variável porém com extremos diferentes. Pode-se evidenciar também que a maior concentração de pontuação mais baixa fica em torno do valor de 700 e o mais alto em torno de 719.
Pode-se observar que a maior concentração de pessoas com muitas dívidas se encontra com poucas contas atrasadas. Com processo de filtragem pode-se observar melhor a variação com mais contas.
A filtragem ajuda a mostrar que a maior quantidade de pessoas possui menos contas. São poucas pessoas que estão atrasadas e possuem diversas contas.
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.0 0.0 0.0 966.5 0.0 463881.0
Fazendo uma breve análise pode-se analisar que a maior parte dos clientes se concentra em clientes não atrasados.
Tem-se cerca de 13.1% dos clientes atrasados.
Fazendo uma filtragem com apenas atrasados em mais de 10000 dólares é possível ver que tratam-se de poucas pessoas. Portanto a grande concentração de pessoas se destina a dívidas menores que 10000 dólares.
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.0000 0.1500 0.2200 0.2588 0.3200 10.0100
A maior parte dos clientes possui uma proporção de dívida e renda de 0.22%. Salvo alguma exceções. No gráfico torna-se difícil de enxergar essa relação. Portanto, será utilizada uma tranformação logarítmica para facilitar a visualização deste outros casos.
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.0000 0.1500 0.2200 0.2588 0.3200 10.0100
A situação de análise se restringe a valores próximos de 0.22%, mas não é um fator limitante. Existindo casos em que essa razão pode ser extrapolada.
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.2 3533.3 5000.0 5963.5 7166.7 483333.3
Utilizando um corte máximo de 20000 mil dólares com renda mensal declarada gera-se o gráfico acima. COm os dados fornecidos pode-se afirmar que a maior concentração de renda está em torno de 5000 mil dóalres mensais.
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.0 158.5 256.4 295.8 392.3 2251.5
A maior parte das dívidas mensais, no entanto, giram em torno de 160 e 300 dólares mensais. Que são valores aceitáveis quanto a possibilidade de pagamento.
Para analisar as correlações para a análise bivariada serão feitos alguns testes antes de decidir quais relações serão aprofundadas a seguir.
Correlações:
Muitas das outras comparações apontaram valores de pontuação de correlação muito baixas e foram descartadas e outras utilizam tipos qualitativos e não quantitativos.
Portanto algumas das análises serão feitas de forma arbitrária para analisar a relação de cada variável.
Há dois grandes padrões observados com estes dados. O primeiro deles é que as Taxas de Empréstimo e O Retorno estimado seguem camadas lineares e paralelas de forma bastante sutil. Enquanto ao mesmo tempo há uma concentração bastante grande de valores acumulados e com certa divergência de valores de Retorno Estimado entre 0.03 e 0.11 .
O que mais se destaca por esta análise é que o fator mais relevante para empréstimo é a categoria delas, que seguem o mesmo padrão para as mais diversas profissões em maior ou menos intensidade. Vale destacar que as profissões “Professional” e “Others” por serem mais genéricas e possuirem diversos dados com esta definiçãpo, apresenta uma forte marcação. Outra observação é a de que Estudantes de uma forma geral não possuem muitos empréstimos. Muito provavelmente por motivos financeiros, já que ao estudar torna-se menos propenso a dividir o tempo de dedicação com algum a atividade remunerada que garanta o cobrimento das parelas de um empréstimo. Por outro lado, Juízes, Investidores também são menos propensos a terem empréstimos. Por sua vez, acredito que pela natureza de se tratar de empregos que recebem alta remuneração há a menor busca de empréstimos.
Nos 3 cenários observam-se características. A primeira é que a maior parte dos mutuários com tempo de empréstimo de 12 meses também possuem uma taxa menor de Dívida por Renda, o que significa que há uma relação de capacidade financeiro de prover o pagamento da dívida. A segunda é a variação gradual de Taxa de Dívida por Renda. Sendo este o caso mais com maior ocorrências e por último, o terceiro cenário em que há 60 meses de tempo de empréstimo, mas que aprensenta também uma taxa de Dívida por Renda maior.
Pode-se observar que há uma leve inclinação para que uma quantidade maior de Renda Mensal Declarada ajude a ter uma pontuação maior na Prosper, mas ainda devem ser feitos análises mais extensivas para que possam se afirmar quaisquer conclusões sobre o real impacto desta variável.
Esta análise também mostra uma leve relação entre a CreditScoreRangeLower e a ProsperScore com uma leve tendência de cresciemnto.
De forma análoga, a mesma relação pode ser observada quando se tratam das variáveis ProsperScore e CreditScoreRangeUpper.
Uma breve análise consegue destacar algumas carreiras que conseguem obter pontuações maiores na Prosper dentre elas destacam-se Programador, Engenheiro Eletricista, Advogado, Doutor, Farmacêutico, Arquiteto, Investidor e Juíz. Em geral tratam-se de profissões bem remuneradas, o que pode ser um fator determinante para esta análise.
Comparando agora a análise bivariada de Borrower Rate e Estimated Return com o ProsperScore é possível enxergar uma gradação bastante interessante para as relações de Borrower Rate e Estimated Return. Pode-se concluir que um dos fatores mais relevantes para a diferenciação é a nota da ProsperScore que concentra maiores pontuações quanto maior a Estimativa de Retorno, o que também viabiliza uma Taxa de Empréstimo Menor.
Este gráfico apresenta uma relação entra a Razão da Dívida por Renda Mensal e a Taxa de Empréstimo com o gradiente de cor repsrentando a ProsperScore. Essa relação mostra que quanto menor a Taxa de Empréstimo e da Razão da Dívida por Renda Mensal maior a ProsperScore.
Nesta análise pode-se chegar a conclusão que valores de taxa de retorno negativas impactam na ProsperScore significativamente. Não significa que quanto maior a taxa de retorno maior a pontuação da ProsperScore, como pode-se evidenciar pela nuvem mesclada de dados entre taxas superiores a 0 e inferiores a 0.2. Porém, para taxas acima de 0.2 a ProsperScore sempre apresenta boas pontuações. Agora sobre a Renda Mensal Declarada não parece ter tantra influência na ProsperScore.
Esta análise não consegue atingir nenhuma conclusão por apresentar uma distribuição bastante bagunçada da ProsperScore.